GPT-4越强，这些数据隐私问题就越需要被重视！

Original 开放隐私计算开放隐私计算 2024-01-09

今天，ChatGPT4.0版本（下称GPT-4）正式发布，引爆了我们的话题圈子。GPT-4霸榜各个频道、社区的热度头条，不管是学术界还是工业界，是茶余饭后的谈资还是头脑风暴的创新，到处都能听到“GPT-4”带给我们的震撼，仿佛上一次还是ChatGPT刚发布的时候。

然而，狂欢之余我们也需要冷静思考，特别是从隐私保护的角度来看GPT-4。

GPT-4在生成内容上的巨大优势也伴随潜在的问题

GPT-4在生成内容方面具有巨大的优势，但同时也伴随着潜在的问题。作为一种强大的新工具，GPT-4有足够的潜力彻底改变某些公司和组织创建和分发内容的方式。使用GPT-4生成内容的优势显然很大。首先，它非常高效，可以快速大规模地生成内容。此外，它能够创建定制特定受众的内容，使公司可以针对不同的人群定制内容，做到个性化。GPT-4还能够在吸引力和可读性上做文章，使输出的内容更具有吸引力和可读性。

然而，使用GPT-4生成内容也存在一些潜在问题。首先，生成的内容可能被认为过于通用，或者不足以定制特定的受众。毕竟，单靠数据研究用户是不够的，要充分考虑用户所处的环境。这意味着公司可能需要投入额外的资源来编辑和修改内容。但这会比传统的修改更难，因为我们并不了解写作或生成的原始思路。

最后，不可避免地，生成的内容可能存在偏见，如误导甚至歧视。例如，被要求根据种族和性别判断某人是否是一个好的科学家，明显偏袒白人男性。这种偏见可能是因为没有对数据作筛选造成的，会带来严重的伦理问题。

GPT-4始终面临保护数据隐私的挑战

GPT-4在能力上有了重大升级，但是用户对数据隐私的关切并没有消失。一个主要的原因是CPT-4模型依赖于大型数据集的训练。

1、GPT-4模型依靠大量的个人数据来训练

GPT-4模型使用从各种来源收集的大型对话数据集进行训练，包括社交媒体、公共论坛以及其他我们暂未得知的渠道。这意味着模型实际上在不断地接触各种对话，其中可能包含有关人员的敏感信息。每次升级都可能伴随着新的对话和新的隐私泄露风险。为了保护用户数据安全，开发者必须采取措施确保用于训练GPT-4的数据隐私得到妥善保护。有一种常用的措施是要求对数据进行加密，并确保只有授权人员才能访问。此外，开发者应考虑采取数据掩码和匿名化、令牌机制等措施进一步保护用户数据。同时，相关部门需要制定政策标准，明确GPT-4的使用方式以及如何处理用户数据。

2、企业组织也关注到GPT-4带来的安全隐患

大多数企业组织在处理数据时都需要考虑到数据安全，因此企业数据能否被GPT-4接触到是一个关键问题。一些公司正在更新其隐私政策，限制员工在处理工作时使用GPT-4，以保护其知识产权和隐私信息。虽然OpenAI的隐私受到相关条款的保护，但用户的个人信息安全却没有得到足够的重视。根据GPT-4的常见问题解答，会监控会话以改善系统并遵守其政策和安全要求。但这并不保证用户数据会绝对安全，至少目前GPT-4没有提供选项供用户删除被AI模型收集的个人信息。也就是说，所有数据安全和隐私义务都由用户负责，而非平台。

3、数据跨境流动带来的国家安全问题需要被重视

2022年中央全面深化改革委员会第二十六次会议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》，指出数据作为新型生产要素已快速融入各个领域并成为我国五大生产要素之一。然而，数据的跨境流动也带来了安全风险，特别是涉及个人信息、敏感信息和国家安全等重要数据时，更需要注意数据安全问题。GPT-4作为生成式人工智能，具备收集、储存和使用海量数据的功能，在人机交互问答中可能会涉及个人信息、商业秘密等数据，存在数据跨境流动安全风险。我国《网络安全法》、《数据安全法》、《个人信息保护法》等法律对数据出境的规定也需要遵守。

所以，我们真的要问一问，训练GPT-4模型的数据真的有经过用户同意再收集吗？当前GPT-4做了哪些举措来解决用户数据安全的问题呢？GPT-4在模型的训练、应用的使用中做到了何种程度的隐私保护？期待在后续版本中OpenAI能带给我们答案。

END

往期推荐: